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摘 要 问卷 调查 是 心理 与 教育 领域 十 分 常见 的 数据 收集 方法 , 而 被 试 的 不 认真 作答 可 能 导 
致 问卷 数据 失真 。 回顾 已 有 研究 发 现 : (9) 不 认真 作答 可 以 从 外 在 作答 模式 和 内 在 产生 原因 两 


个 方向 进行 定义 ; (b) 不 认真 作答 的 常见 事前 控制 方法 主要 包括 降低 任务 难度 以 及 提高 被 试 


作答 动机 两 大 类 ; (c) 事 后 识别 方法 主要 包括 典 入 识别 量 表 、 作 答 模 式 识别 、 反 应 时 识别 三 大 
类 。 今后 的 研究 中 应 基于 作答 机 制 的 研究 优化 与 开发 控制 方法 , 检验 作答 识别 方法 的 跨 情 境 
适用 性 并 开发 新 方法 ， 并 对 局 部 不 认真 的 识别 与 处 理 进行 更 深入 的 探讨 。 
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在 科学 研究 中 ， 当 研究 者 将 所 要 调查 的 内 容 具 体 化 为 一 系列 有 机 联系 的 可 测 指标 ， 进 而 
编制 成 问题 表格 或 短 本 ( 刘 蔚 华 ， 陈 远 , 1991), 则 在 测量 人 的 行为 或 态度 时 , 就 形成 了 问卷 (车 
文博 ,2001)。 问 卷 调查 是 社会 科学 研究 中 十 分 常见 的 数据 收集 方式 ， 但 是 ， 通 过 这 种 方式 获 
得 的 数据 容易 包含 较 多 测量 误差 , 因此 在 基于 数据 建 模 、 推 断 、 决 策 之 前 需要 对 其 进行 筛选 ， 
以 识别 和 纠正 这 些 不 正确 的 结果 (Huang et al., 2012)。 

在 这 些 误差 中 , 不 认真 作答 是 既 常见 、 又 往往 因 难 以 处 理 而 被 忽视 的 因素 之 一 。 研究 表 
明 ， 在 大 多 数 问卷 调查 中 不 认真 作答 的 发 生 率 从 1%(Gough & Bradley, 1996) 到 30%(Burns et 
al.,2014) 不 等 。 不 认真 作答 会 污染 数据 结果 ， 大 大 降低 数据 的 真实 性 ， 如 不 加 处 理 ， 可 能 会 


掩盖 有 意义 的 结果 、 产 生 虚 假 结果 (Curran, 2016; Maniaci & Rogge, 2014)。 其 影响 主要 包括 : 


第 一 , 影响 测量 工具 的 信 效 度 (DeSimone et al., 2018; Kam & Meyer, 2015; Zijlstra et al., 2011), 
例如 ， 单 维 量 表 中 的 反 向 表述 题 越 容易 从 正 向 表述 题 中 脱离 成 单独 的 维度 (Woods,2006)。 第 
~ 二 ,形成 随机 (random) 数 据 或 奇异 值 (outlieD， 进 而 影响 随后 的 推断 与 决策 (Barge & Gehlbach, 


2012; Huang et al., 2015; Zijlstra et al., 2011)， 例 如 影响 百 分 等 级 评分 (Zijlstra et al., 2011). = 


大 或 缩小 变量 间 的 相关 等 (Credé, 2010; Holtzman & Donnellan, 2017; Huang et al., 2015; 


Schneider et al., 2018). 


随 着 电子 问卷 使 用 的 愈加 广泛 (Evans & Mathur, 2005; Lloyd & Devine, 2010), HAIEZ 


R 的 便利 性 Johnson, 2005)、 作 答 的 匿名 性 (QMeade & Craig, 2012)、 作 答 环境 的 不 可 控 (Barge & 


Gehlbach, 2012; Carrier et al., 2009; Meade & Craig, 2012)、 主 试 与 被 试 互 动 的 减少 (Francavilla 


et al., 2019; Johnson, 2005; Ward & Meade, 2018; Zhang & Conrad, 2018) 等 原因 会 大 大 增加 不 
认真 作答 的 风险 (Ward & Pond, 2015)。 基 于 此 ， 本 文 对 相关 研究 进行 系统 概括 和 总 结 ， 以 期 
提高 研究 者 与 实践 者 对 问卷 不 认真 作答 的 重视 , 并 为 其 选用 控制 与 识别 方法 提供 参考 : 首先 
梳理 了 国外 研究 中 不 认真 作答 的 相关 概念 以 明确 其 范畴 , 之 后 分 别 总 结 不 认真 作答 的 控制 与 
识别 技术 ， 最 后 对 未 来 研究 的 方向 做 了 展望 。 


不 认真 作答 的 相关 概念 


“不 认真 作答 ”这 一 概念 在 英文 语 境 中 尚 无 统一 的 术语 , 且 不 同 研究 使 用 的 术语 存在 微 
妙 的 差别 ， 这 些 术语 主要 有 两 个 侧重 方向 : 外 在 作答 模式 和 内 在 产生 原因 。 
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1.1 ”外 在 作答 模式 


不 认真 作答 的 其 中 一 类 概念 着 重 描述 外 显 结果 , 即 作 答 模式 (response pattern), 多 指 李 克 
特 式 量 表 中 的 选项 分 布 。 例 如 被 研究 者 广泛 采用 的 术语 随机 作答 (random responding)， 即 被 
试 在 问卷 中 随机 地 色 选 (Beach, 1989; Berry et al., 1992; Marjanovic et al., 2015)。 但 也 有 研究 
者 指出 ,不 认真 作答 可 能 呈现 出 非 随机 的 模式 (Meade & Craig, 2012), 例如 直线 作答 (straight- 
lining & nondifferentiation)(Curran, 2016; Fang et al., 2016; Huang et al., 2012; Meade & Craig, 
2012)， 或 按照 无 意义 的 规律 选择 答案 等 (Dunn etal.,2018)。 此 外 ，Grau 等 人 (2019) 也 发 现 不 
认真 作答 与 特定 作答 风格 (response style) 存 在 一 定 程 度 的 重合 .各 作答 模式 示例 如 图 1 所 示 。 
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1 各 类 作答 模式 示例 
这 些 研 究 直观 地 描述 了 不 认真 作答 外 显 的 作答 模式 , 同时 认可 这 些 模式 产生 的 原因 是 被 
试 的 不 努力 、 不 认真 。 这 种 “不 努力 ”恰恰 是 不 认真 作答 与 社会 称许 性 反应 (social desirability 
responding) 的 差别 一 一 社会 称许 性 反应 也 可 能 表现 为 特定 的 作答 风格 (He & Van De Vijver, 
2013, 2015a, 2015b, 2016)， 但 它 并 非 减 少 了 答题 过 程 中 的 认 知 负荷 ， 反 而 “需要 额外 认 知 努 
JI” (Grau et al., 2019; Maniaci & Rogge, 2014; McGrath et al., 2010; Meade & Craig, 2012)。 然 


而 , 由 于 不 认真 作答 模式 复杂 多 样 难以 穷 举 , MERRIN E A FIR Zo E BOT AAEE 7 HL o 


12 ”内 在 产生 原因 


为 了 避免 上 述 的 窗 化 , 有 研究 者 在 定义 时 更 侧重 不 认真 作答 的 产生 原因 。Krosnick(1991) 
认为 被 试 作答 的 努力 程度 是 一 个 从 理想 最 大 值 (optimization) 到 完全 不 努力 的 连续 体 ,任务 难 
度 、 被 试 能 力 和 被 试 作答 动机 共同 影响 了 被 试 在 这 一 连续 体 上 的 位 置 。Zhang(2013) 将 这 一 
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TEHE 
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化 , 区 分 了 努力 程度 的 理想 最 大 值 (a)、 可 达到 最 大 值 (attainab 


le maximum)(b)、 


实际 值 (actuaD)(c) 三 个 节点 。 其 中 任务 难度 和 被 试 能 力 决 定 了 可 达到 最 大 值 (b) 的 位 置 ， 被 试 


作答 动机 决定 了 实际 值 (c) 的 位 置 《 如 图 2 所 示 )。 不 认真 作答 则 是 被 试 因 
从 而 出 现 不 遵循 问卷 的 指导 语 、 没 有 精准 地 理解 题目 内 容 、 没 有 提供 


为 作答 动机 较 低 ， 
准确 回答 的 行为 


(Bowling et al., 2016; Huang et al., 2012; Meade & Craig, 2012)。 这 类 概念 包括 缺乏 努力 的 作答 


(insufficient effort responding)(Huang et al., 2012)、 粗 心 的 作答 (careless responding)(Grau et al., 


2019; Johnson, 2005; Meade & Craig, 2012)、 非 卷 入 的 作答 (disengaged responding)(Soland et al., 


2019). wk itt 47 Ay (shirking behavior)(Fang et al., 2016)、 不 专心 (inattention)(Johnson, 2005; 


Maniaci & Rogge, 2014; Meade & Craig，2012) 、 令 自我 满意 的 作答 行为 (satisficing 


behaviors)(Anduiza & Galais, 2017; Barge & Gehlbach, 2012; Zhang & Conrad 


, 2018) 等 等 。 


任务 难度 
一 
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Krosnick(1991) 的 理论 框架 Zhang(2013) 的 理论 


t 理想 最 大 值 (optimization) @ (2) F248 kz KE (optimization) 


全 (b) 串 达到 最 大 值 (attainable 


maximum) 
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图 2 Krosnick(1991) 及 Zhang(2013) 的 理论 框架 


(图 片 来 源 : Zhang, 2013) 
以 上 两 类 术语 从 两 个 侧面 对 不 认真 作答 进行 了 描述 或 定义 , 二 者 并 不 


R, 且 在 相互 补 


充 之 下 ,丰富 了 不 认真 作答 的 内 涵 。 基 于 这 些 术语 ， 有 研究 者 提出 ,不 认真 作答 可 以 被 定义 
为 , 个 体 在 作答 问卷 过 程 中 因 动 机 不 足 而 表现 出 的 不 遵从 题目 要 求 , 或 未 仔细 阅读 题目 内 容 


便 做 出 回答 的 作答 模式 ， 其 外 显 形式 包括 随机 作答 、 直 线 作 答 等 等 (Huang 


et al., 2012). 


不 认真 作答 的 事前 控制 


事前 控制 指 在 编制 问卷 或 施 测 时 通过 某 种 方法 阻止 或 者 减少 被 试 作答 不 认真 的 现象 。 控 
制 方法 主要 分 为 两 大 类 ， 第 一 ， 降 低 任务 难度 以 提高 努力 程度 的 可 达到 最 大 值 ， 常 见 手段 为 
调整 问卷 表述 与 长 度 。 高 作答 动机 从 而 提高 努力 程度 的 实际 值 ， 常 见 手段 有 施加 外 
部 奖惩 、 要 求 被 试 承诺 认真 作答 以 及 提供 反馈 增加 社会 互动 。 


1.3 ”降低 任务 难度 


依据 Zhang(2013) 的 理论 ， 任 务 难度 会 影响 被 试 的 努力 程度 中 可 达到 的 最 大 值 。 而 在 调 
Fr 查 问卷 中 ， 降 低 任务 难度 一 方面 体现 在 为 被 试 提供 清晰 、 人 合适、 易于 理解 的 指导 语 和 题目 表 
K 述 ， 进 而 减轻 被 试 认 知 加 工 负 担 (Garcia , 2011; Rousseau & Ennis, 2013); 另 一 方面 体现 在 缩 
> 短 问 卷 ， 降 低 被 试 的 疲劳 感 。 若 问卷 过 长 ， 被 试 在 作答 至 问卷 中 间或 靠 后 的 位 置 时 ， 可 能 精 
力 不 足 ， 注 意 无 法 持续 集中 ( 卫 旭 华 , 张 亮 花 , 2019)， 或 产生 厌烦 感 和 枯燥 感 ， 出 现 不 认真 作 
答 的 现象 (Baer et al., 1997; Berry et al., 1992)。 实 证 研究 证 明 ， 单 次 填 答 较 长 的 调查 问卷 会 对 
数据 质量 产生 负面 影响 (Nguyen, 2017)。 因 此 有 研究 者 建议 ， 当 被 测量 构 念 是 定义 清晰 的 单 
N 维 构 念 且 非 研究 中 的 核心 构 念 时 ， 尤 其 是 在 大 样本 、 时 间 受 限 的 研究 中 ， 对 同一 构 念 的 测量 
= 可 以 采用 单 题 项 的 方式 缩短 问卷 ， 以 提高 数据 收集 的 有 效 性 ( 卫 旭 华 , 张 亮 花 , 2019). 


1.4 ”提高 作答 动机 


不 认真 作答 的 事前 控制 更 多 着 力 于 激发 被 试 的 作答 动机 , 以 提高 被 试 努力 程度 的 实际 值 。 
当 被 试 不 愿意 或 不 认为 自己 应 当 对 结果 负责 时 , 就 不 会 持 谨慎 的 态度 , 实际 认真 程度 会 远 低 
于 最 大 可 能 的 认真 程度 (Ward & Meade, 2018)。 而 提高 被 试 作答 动机 主要 包含 以 下 几 种 方式 : 

1) 施加 外 部 奖惩 。 由 于 大 多 数 问 卷 调 查 对 被 试 而 言 是 低 利 害 或 无 趣 的 ( 卫 旭 华 , 张 亮 花 ， 
2019)， 所 以 问卷 自身 无 法 使 被 试 保持 较 高 的 作答 动机 ， 因 而 需要 一 些 外 部 的 奖励 或 警告 。 
其 中 ， 外 部 奖励 (如 被 试 费 ) 是 吸引 被 试 填 答 问 卷 的 常见 手段 。 但 当 奖 励 的 目的 性 过 强 时 ， 
被 试 可 能 会 为 了 获得 奖励 而 随意 应 付 调 查 (Barge & Gehlbach, 2012; Maniaci & Rogge, 2014)。 
因此 除了 奖励 ， 警 告 也 是 有 必要 的 。 警 告 通常 出 现在 指导 语 中 ,例如 告知 被 试 调查 结束 后 研 
究 者 会 采用 统计 手段 评估 作答 质量 ， 将 有 问题 的 数据 剔除 ， 或 将 数据 质量 反馈 给 被 试 ， 甚 至 


对 不 认真 作答 的 被 试 有 所 惩罚 《如 不 支付 被 试 费 等 )。 有 研究 表明 ， 和 警告 对 控制 不 认真 作答 
显著 的 效果 (Huang et al., 2012; Ward & Pond, 2015). 

2) 要 求 被 试 承诺 认真 作答 。 一 旦 人 们 明确 承诺 一 个 行动 或 立场 ， 他 们 倾向 于 以 与 承诺 
相 一 致 的 方式 行事 (Cialdini, 2001)。 但 直接 的 承诺 未 必 能 达到 理想 的 效果 ，Cibelli(2017) 在 实 
验 中 要 求 被 试 承诺 “认真 思考 、 努 力 回 忆 、 花 时 间 填 答 ”， 以 增加 被 试 的 责任 感 。 实 验 结果 
显示 承诺 在 提高 作答 质量 上 作用 有 限 , 仅 能 使 得 被 试 在 难题 (如 , 主观 题 ) 上 付出 更 多 努力 。 
此 外 ， 被 试 填 答 时 往往 会 无 视 指 导语 ， 因 此 有 研究 者 提出 可 以 通过 在 问卷 前 设置 指示 题 
(instructional manipulation checks) 提 醒 被 试 认真 作答 ， 被 试 只 有 正确 回答 指示 题 才 可 以 继续 
填 答 问 卷 。Oppenheimer 等 人 (2009) 发 现 ， 这 种 方式 使 得 不 认真 作答 的 情况 整体 得 到 改善 。 

3) 提供 反馈 增加 社会 互动 。 这 类 方法 主要 针对 电子 问卷 。 首 先 ， 在 被 试 作答 过 快 或 者 
连续 选择 同一 选项 时 出 现 弹 窗 提示 ， 能 够 提升 数据 质量 (Cibelli, 2017; Zhang, 2013; Zhang & 
Conrad, 2018)。 其 次 ， 在 电子 问卷 中 ， 缺 少 与 主 试 之 间 的 社会 互动 被 认为 是 被 试 难以 维持 填 
答 动机 和 认 知 努力 的 原因 (Fang et al., 2014; Meade & Craig, 2012)， 因 此 提高 社会 互动 也 是 降 
低 不 认真 作答 的 思路 之 一 。Ward 和 Pond(2015) 通 过 在 电子 问卷 中 放置 “虚拟 人 (virtual 
humans)” 的 方式 模拟 纸 笔 测 验 时 被 试 与 主 试 之 间 的 社会 互动 , 提升 被 试 的 注意 力 和 责任 感 。 
实验 证 明 当 警 告 的 指导 语 与 监督 的 “虚拟 人 ”同时 存在 时 ， 不 认真 作答 在 被 试 中 的 发 生 率 显 
著 降 低 。 但 Francavilla 等 人 (2019) 的 研究 结果 显示 ,“ 虚 拟人 ”的 作用 有 限 ， 实 验 组 的 被 试 仅 
在 少数 指标 上 表现 更 好 。 再 次 ， 有 研究 进一步 分 析 了 反馈 中 “社会 性 ”的 作用 ， 即 在 反馈 红 
窗 中 用 人 脸 图 片 蔡 代 黄色 感叹 号 图 标 ， 但 结果 显示 这 两 种 方法 之 间 没 有 显著 差异 (Zhang， 
2013; Zhang & Conrad, 2018)。 此 外 ， 弹 窗 信息 和 “虚拟 人 ”也 存在 分 散 被 试 注意 力 的 潜在 风 


险 (Ward & Pond, 2015)。 


不 认真 作答 的 事后 识别 


事前 控制 能 减少 不 认真 作答 的 发 生 ， 但 不 能 完全 避免 ,因此 有 必要 在 数据 收集 之 后 ， 对 
原始 数据 中 仍 存在 的 不 认真 作答 数据 进行 事后 识别 与 剔除 .已 有 研究 开发 出 许多 事后 识别 的 
方法 ， 按 证 据 来 源 可 划分 为 三 类 : 符 入 识别 量 表 、 作 答 模 式 识 别 及 反应 时 识别 。 
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15 ARAB 


HAVA Sil Ba Ze th BER EE Bh Sif ELIE (proactive approaches)(Dunn et al., 2018) # He sii A 
表 ， 
反应 被 试 不 认真 作答 程度 。 识 别 量 表 题 主要 有 三 类 : 陷阱 题 (bogus items)、 指 示 题 和 自我 汇 
报 题 (self-report)。 

1) 陷 阱 题 , 即 正 确 答案 显而易见 的 题目 。 例 如 “我 于 2 月 30 日 出 生 ”(Huang et al., 2012), 
“我 已 经 周游 了 世界 92 VR” (Dunn et al., 2018) 等 。 这 类 题 虽然 与 周围 题目 一 样 采 用 李 克 特 
五 点 或 七 点 计 分 的 方式 询问 被 试 的 同意 程度 , 但 只 有 “非常 不 同意 ”是 合理 的 。 如 果 被 试 多 
次 在 这 类 题目 上 选择 其 它 选 项 ， 则 会 被 认为 不 认真 。 

2) 指示 题 ， 即 要 求 被 试 按照 题 干 的 指示 进行 操作 的 题目 。 例 如 “请 在 本 题 选择 第 二 个 
选项 ”(Anduiza & Galais, 2017)、“ 请 跳 过 本 题 ”(Maniaci & Rogge, 2014)、“ 请 点 击 屏幕 下 方 
的 小 圆圈 ”(Oppenheimer etal., 2009)。 如 果 被 试 多 次 出 现 不 按 题 干 指 示 作 答 的 情况 ， 则 会 被 
认为 不 认真 。 

3) 自我 报告 题 ， 即 直接 询问 被 试 对 自己 认真 努力 程度 的 主观 判断 。 例 如 “我 并 没有 太 
在 意 这 些 问题 的 实际 含义 ”“ 我 回答 问题 的 时 候 很 粗心 ”(Huang etal., 2012)。 这 种 识别 方法 
简单 而 直接 ， 如 果 被 试 承认 自己 作答 不 认真 ， 则 研究 者 也 会 将 其 标记 。 
识别 量 表 简单 、 直 观 ， 是 最 为 普遍 的 识别 方法 ,但 其 也 存在 两 方面 的 问题 。 一 方面 ,不 
认真 作答 者 未 必 完 全 不 看 题目 , 若 这 类 量 表 题 和 问卷 主体 内 容 毫 无 关联 , 被 试 仅 需 动用 极 少 


认 知 资源 就 能 注意 到 ， 因 此 该 方法 只 能 最 低 程度 地 识别 不 认真 作答 。 其 次 , KA H 


ai 


法 (direct screening methods)(Desimone et al., 2015), FL3& AS JE FEE FE Jin Pa P RARA 


多 可 能 会 激怒 认真 作答 的 被 试 (Costa Jr & McCrae, 2008; Curran, 2016; Meade & Craig, 2012). 


1.6 “作答 模式 识别 


依据 作答 模式 识别 ， 也 称 反应 性 筛 查 (reactive approaches)。 此 类 方法 在 数据 收集 之 后 对 
被 试 的 作答 模式 进行 分 析 , 计算 识别 指标 , 表示 被 试 不 认真 作答 的 程度 (Meade & Craig, 2012). 


识别 逻辑 主要 有 个 体 一 致 性 (individual consistency) 分 析 和 奇异 值 分 析 两 种 。 


1.6.1 个 体 一 致 性 分 析 


在 李 克 特 量 表 中 ， 不 认真 作 管 的 常见 表现 形式 为 随机 作答 和 直线 作答 (Curran, 2016; 


7 


Maniaci & Rogge, 2014; Meade & Craig, 2012; Revilla & Ochoa, 2015)。 因 此 ， 这 类 指标 假定 ， 
如 果 被 试 在 各 题目 上 的 选项 分 布 过 于 随机 ， 或 过 于 一 致 ， 则 表明 其 没有 认真 作答 (Barge & 


Gehlbach, 2012; Marjanovic et al., 2015)。 常 见 指 标 包括 长 线 系数 (long string index)、 作 答 标 准 


差 (interitem standard deviation, ISD)、 个 人 信和 度 (individual reliability)、 正 / 反 向 题目 对 相关 。 

D 长 线 系 数 ， 即 连续 选择 某 一 选项 的 最 长 个 数 ， 该 指标 对 直线 作答 十 分 敏感 (Meade & 
Craig, 2012)。 例 如 ， 当 被 试 在 一 个 10 题 的 四 点 计 分量 表 中 作答 模式 为 [1,1,1,2,1,2,2,3,4,4]， 
则 连续 选择 同一 选项 的 个 数 分 别 为 [3,1,1,2,1,2]， 其 中 最 大 值 3 即 为 长 线 系数 ， 均 值 1.67 亦 
可 作为 衡量 不 认真 作答 的 指标 ; 也 有 研究 者 采用 每 个 选项 对 应 的 长 线 系数 (Costa Ir & McCrae, 
2008; Huang et al., 2012)， 在 本 例 中 ， 答 案 1-4 对 应 的 长 线 系数 分 别 为 [3,2,1,2]。 


2) 作答 标准 差 ,又 称 个 人 作答 变异 系数 (intra-individual response variability index)(Curran, 


2016; Dunn et al., 2018; Marjanovic et al., 2015)。 其 计算 公式 是 : 


D(Xig — X)? 


其 中 15D; 表 示 被 试 i 的 作答 标准 差 ，Xig 是 被 试 i 在 第 g 题 上 的 得 分 ， 是 被 试 i 所 有 题 
目的 均 分 , k 是 题目 总 数 。 当 被 试 作答 过 于 随机 时 ， 其 单个 维度 中 的 ISD 会 异常 大 ; 而 被 试 
作答 过 于 一 致 时 ， 其 整个 问卷 的 ISD 会 异常 小 (Dunn etal., 2018; Marjanovic et al., 2015)。 研 


究 者 建议 整个 问卷 题 量 在 25-150， 单 个 维度 内 题目 大 于 5 时 更 适合 计算 ISD(Barge & 


Gehlbach, 2012; Dunn et al., 2018)。 

3) 个 人 信 度 。 利 用 个 人 信 度 测量 不 认真 作答 有 以 下 前 提 假 设 : 每 一 个 子 量 表 都 只 测量 
一 个 心理 构 念 ; 不 认真 作答 的 被 试 采取 的 方式 是 随机 作答 (Curran, 2016)。 个 人 信 度 最 常见 的 
指标 是 奇偶 一 致 系数 (even-odd consistency)(Huang et al., 2012; Jackson, 1976, 1977; Johnson, 
2005; Meade & Craig, 2012)。 其 计算 过 程 是 先 将 整个 问卷 分 为 若干 个 子 量 表 ， 再 分 别 计算 每 
个 子 量 表 的 奇数 项 和 偶数 项 的 平均 值 , 求 奇数 项 平均 值 组 成 的 向 量 和 偶数 项 平均 值 组 成 的 向 
量 之 间 的 相关 , 最 后 用 斯 皮尔 曼 - 布 朗 公式 进行 校正 。 Jackson(1977) 建 议 当 奇偶 一 致 系数 小 于 
0.30 的 时 候 ， 可 以 认为 该 被 试 很 大 概率 作答 不 认真 。Curran(2016) 提 出 一 种 新 计算 方法 ， 称 
作 重 复 取 样 个 人 信和 度 (Resampled Individual Reliability, RIR) 系 数 ， 与 奇偶 一 致 系数 逻辑 相同 ， 
但 通过 重复 不 断 的 抽样 (resampling and bootstrapping) 获 得 尽 可 能 多 的 分 半 样 本 以 得 到 更 稳健 
的 结果 。 

4) 正 / 反 向 题目 对 相关 ， 是 指 量 表 中 意义 相同 或 者 意义 相反 的 两 个 题目 组 成 的 题目 对 之 
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间 的 相关 。 其 中 构建 题目 对 的 方法 有 两 种 : 一 种 称 为 “语义 上 的 (semantic) 题 目 对 ”， 是 在 题 
目 设 计 之 初 制 定 的 ， 另 一 种 称 为 “心理 测量 上 的 (psychometric) 题 目 对 ” 是 通过 数据 驱动 的 


方式 进行 构建 的 (Curran, 2016), 依据 Johnson(2005) 的 建议 , 可 以 利用 已 采集 的 数据 计算 题目 
间 的 两 两 相关 ， 相 关系 数 在 0.60 以 上 的 题目 对 可 以 构建 成 心理 测量 上 的 正 / 反 向 题目 对 。 而 
个 人 作答 的 认真 程度 可 以 通过 正 / 反 向 题目 对 得 分 的 相关 值 体现 。 

尽管 个 体 一 致 性 的 各 识别 指标 在 理解 与 计算 上 相对 直观 , 但 被 试 作答 的 一 致 性 程度 受 问 
卷 内 容 、 长 度 和 形式 等 因素 影响 ， 这 使 得 各 识别 指标 很 难 制定 跨 问卷 的 临界 值 (cutoff)， 且 在 
有 些 情况 下 这 些 指标 的 识别 效果 有 限 。 例如, 利用 长 线 系数 识别 不 认真 作答 明显 在 短 问卷 中 
较 大 局 限 性 (Curran, 2016); 再 者 ， 在 某 些 内容 领 域 ( 如 态度 、 适 应 性 ) 的 调查 中 ， 得 分 分 
布 并 非 正 态 ， 而 常常 呈现 偏 态 ( 件 智 佳 , 2017; EME, REE, 2009; 姚 成 等 , 2012; 郑 云 翔 
等 ,2018)， 这 也 就 意味 着 被 试 选 择 很 多 “非常 同意 ”也 是 正常 的 。 又 如 ， 当 问卷 中 存在 反 向 
表述 的 题目 时 ， 对 分 数 大 小 敏感 的 个 人 信和 度 、 作 答 标准 差 等 指标 的 使 用 也 需要 更 加 谨慎 


(Curran, 2016)。 


1.6.2 BRED 


奇异 值 分 析 的 基本 假设 是 “任何 给 定 样本 中 的 大 多 数 被 试 都 在 认真 思考 并 管 题 ”(Curran,， 
2016)。 因 此 当 个 人 作答 模式 偏离 群体 程度 过 大 时 ， 可 以 认为 该 被 试 作答 不 认真 。 常 见 的 指 


标 有 : 马 氏 距离 (Mahalanobis distance)、 被 试 拟 合 系数 (individual respondent's goodness-of-fit 


Score，Rer)、 人 总 相关 系数 (person- total correlatiom)、 个 人 拟 合 指数 (person-fit statistics) 中 的 


i © Guttman 错误 个 数 (Guttman error)、U3 指数 、lz 指 数 、 神 经 网 络 (neural network) 算 法 中 的 自动 


编码 器 (autoencoder) 等 等 。 
1) 马 氏 距离 (Mahalanobis, 1936)， 这 是 一 个 常用 的 多 变量 奇异 值 识别 指标 ， 且 在 大 多 统 
计 软 件 中 可 以 直接 计算 。 定 义 
MD; = V(x; — ISTIC — p) 
为 第 i 个 样本 的 马 氏 距离 。 其 中 站 = (xi ous vee Xie) ERAS i 在 k 个 维度 上 的 得 分 ; 人 = 
(Uy) … ,Ap)7 是 x 的 期 望 ;，S 是 x 的 协 方差 矩阵 。Meade 和 Craig(2012) 通 过 模拟 结果 发 现 ， 马 


氏 距 离 是 一 个 强大 的 探测 不 认真 作答 的 指标 。 Velleman 和 Welsch(1981) 建 议 用 也 可 以 用 杠杆 


值 hi = MD? + 二 判断 奇异 值 ， 以 至 或 至 临界 值 ， 其 中 k 为 变量 个 数 ，n 为 样本 量 。 


2) 被 试 拟 合 系数 Kountur 2016)， 其 计算 公式 如 下 : 


k ai 
(Xg — Xa) 
ha) a 
g=1 g 


Nit 


kt 中 Rer 是 代表 作答 认真 程度 的 被 试 拟 合 系数 ， 如 是 该 被 试 在 第 g 道 题目 上 的 得 分 。Xo 


是 所 有 被 试 在 第 g 道 题 目 上 得 分 的 均值 。 被 试 拟 合 系数 反映 了 某 个 作答 与 整体 作答 之 间 的 
当 被 试 偏离 整体 的 程度 越 大 时 ， 被 试 拟 合 系数 的 数值 越 大 。 

3) 人 总 相关 系数 (Curran, 2016)， 即 某 被 试 作答 模式 X 与 其 他 所 有 人 作答 模式 M 的 相关 
系数 pxw， 其 中 M = E(X)。 如 果 人 总 相关 系数 较 低 ， 则 说 明 该 被 试 的 作答 模式 与 总 体 有 较 大 


偏差 ， 


的 背离 ， 可 能 是 该 被 试 作答 不 认真 。 


4 


可 ， 其 逻辑 是 比较 分 数 的 观测 分 布 和 到 
近年 来 也 被 迁移 至 问卷 调查 不 认真 反应 的 识别 中 。 其 中 , 理想 分 布 需 


) 个 人 拟 合 指数 ， 在 成 就 测验 领域 使 用 个 人 拟 合 指数 来 识别 异常 个 体 已 经 得 到 广泛 认 


计 分 


F Guttman 错误 (Guttman error) 的 个 数 G?(Emons, 2008; Guttman, 1944, 1950) 及 G? 的 标准 


E 想 分 布 的 拟 合 程度 (Meijer & Sijtsma, 2001)。 这 一 逻辑 


要 使 用 群体 作答 模式 数 
据 进行 构建 , 因此 通过 个 人 拟 合 指数 进行 不 认真 作答 识别 也 需要 假定 大 部 分 人 是 认真 作答 者 


(Meijer & Sijtsma, 2001; Wang & Xu, 2015)。 和 常见 用 于 识别 不 认真 作答 的 个 人 拟 合 指数 有 多 级 


化 形式 68(Emons, 2008). U3 指数 (Van der Flier, 1980) 的 多 级 计 分 版 本 U3P(Emons, 2008), lz 
指数 的 多 级 计 分 版 本 18(Melipillin, 2019) 等 等 。 


Guttman 错误 个 数 。Guttman 模型 (Guttman modeD 的 基本 逻辑 是 被 试 应 该 更 容易 在 简 


单 题目 


7g 从 大 到 小 降序 排列 , 如 果 被 试 在 靠 前 的 相对 简 自 


上 得 分 。 它 最 开始 被 用 于 成 就 测验 (二 级 i 


十 分 )， 例 如 ， 将 测 


Guttman 错误 的 个 数 G 为 : 


G= >. X (CI 
he 


= Xne) 


验 中 所 有 题目 按 了 


EW 


hp 题 上 没有 得 分 , 而 靠 后 的 相对 难题 上 得 分 


了 ， 则 不 符合 Guttman 模型 ， 犯 了 Guttman 错误 。Guttman 错误 越 多 ， 数 据 越 异常 。 定 义 


Xnn 表 示 被 试 在 两 道 题 中 相对 难 的 题目 上 的 得 分 (1 为 正确 , 0 为 错误 )， Xe 表示 被 试 在 
两 道 题 中 相对 简单 的 题目 上 的 得 分 。 


实际 上 ，Guttman 模型 也 可 以 扩展 到 多 级 计 分 中 ，i 


而 可 以 在 李 克 特 量 表 式 问卷 中 计算 


G? (Emons, 2008; Niessen et al., 2016)。 即 基于 优势 模型 (dominance model) 的 测量 理论 ， 被 试 
的 特质 水 平 越 高 ， 越 容易 打 高 分 ， 也 就 是 越 容易 跳 过 前 一 个 选项 (如 ， 非 常 不 同意 ) 而 选择 
的 逻辑 计算 每 一 个 题目 


后 一 个 选项 (如 ， 比 较 不 同意 )。 此 时 ， 可 以 
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计算 “测验 正确 率 ” 


的 每 一 个 选项 的 通过 概率 ro 。Emon(2008) 同 时 提出 6 的 标准 化 版 本 CNw， 便 于 跨 情境 对 比 。 

@U3 指数 。U3 指数 是 一 种 常见 且 具 有 较 好 检验 力 (powenD 的 非 参数 个 人 拟 合 指数 
(Karabatsos, 2003)。 它 同样 源 于 成 就 测验 ， 在 成 就 测验 中 非 参数 个 人 拟 合 指数 的 一 般 表达 式 
为 : 


d k 
Dji Wg = È 1XgWg 


Gi = 
r _ yk 
2 -1 Ma Dp_rii wg 


其 中 g 为 题目 序号 ，k 为 题目 总 数 (g=1,.….,k)，Xo 为 被 试 在 第 g 题 上 的 得 分 ，i 为 被 试 


编号 ，n ARIA G=l,...n), f 为 被 试 答对 的 题目 数 (Meijer & Sijtsma, 2001)。wy 为 适应 性 


函数 ， 在 不 同 的 个 人 拟 合 指数 中 wy 的 计算 有 所 不 同 ， 而 在 U3 指数 中 wg = ln (F. Gh 


1 一 Tg 
对 值 越 小 ， 异 常 程度 越 低 ， 当 Gi 为 0 时 ， 数 据 符 合 Guttman 模型 。 与 Guttman 错误 个 数 一 
样 ， 当 用 题目 的 选项 通过 率 ro 代替 正确 率 时 ，U3 指数 同样 可 用 于 多 级 计 分 的 量 表 中 (Emons， 


2008)。 


(@)1z 指 数 。Levine 和 Rubin(1979) 提 出 似 然 估计 指标 (log-likelihood fb 是 个 人 拟 合 中 研究 
点 用 最 为 广泛 的 指数 。! 指 数 属于 参数 个 人 拟 合 指 数 ， 表 示 个 人 得 分 模式 和 RT 模型 拟 合 的 
里 想 模 式 之 间 的 差异 ，lz 指 数 即 1 的 标准 化 形式 (Drasgow et al., 1985)。1 指 数 计算 公式 为 : 


k 
1= > {XglnP;(0) + (1 — X,)In [1 — P,(6)]} 
g=1 


在 二 级 计 分 (如 成 就 测验 中 记 (6) 表示 能 力 9 的 被 试 在 题目 g 上 答对 的 概率 ;在 多 级 
计 分 中 则 记 为 B. (6)， 表 示 通 过 题目 g 的 选项 xg 的 概率 (Melipillin, 2019)。1 指 数 与 lz 指数 越 
小 ， 异 常 程度 越 大 。 

5) 自动 编码 器 。 自 动 编码 器 是 非 监督 神经 网 络 中 常用 于 识别 高 维度 奇异 值 的 方法 ， 被 
广泛 运用 于 工程 学 领域 ，Melipilian(2019) 将 其 用 于 识别 问卷 的 不 认真 作答 。 自 动 编码 器 的 原 
里 是 将 数据 先 降 维 编码 ， 再 升 维 解码 ， 比 较 生 成 数据 与 原始 数据 的 差距 。 对 于 奇异 值 而 言 ， 
其 生成 数据 和 原始 数据 的 差距 一 般 较 大 。 在 事先 设置 合适 闵 值 的 情况 下 ， 即 可 标记 奇异 值 。 
Melipillan 的 研究 中 ， 利 用 自动 编码 器 的 方法 经 过 四 次 迭代 识别 奇异 值 的 整体 效果 优 于 利用 
lz 指数 识别 。 

然而 , 任何 奇异 值 指标 的 效果 都 非常 依赖 整个 样本 的 性 质 , 即 奇异 值 分 析 只 能 说 明 该 被 
试 的 作答 是 否 偏离 群体 , 无 法 断定 偏离 群体 的 原因 , 这 使 得 采用 奇异 值 分 析 识 别 问卷 中 的 不 


认真 作答 值得 商 梭 。 首先， 低 利害 调查 中 不 认真 作答 的 比例 可 能 非常 大 (不同 于 奇异 值 分 析 
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常用 的 考试 领域 , 异常 作答 情况 较 少 ), 被 奇异 值 指标 标记 的 异常 被 试 很 可 能 是 认真 作答 者 ， 


而 不 是 数量 可 观 的 不 认真 作答 者 。 其 次 ,个 体 在 各 个 题目 上 得 分 不 同 本 属 正常 现象 ， 当 用 这 
种 差异 
其 他 因素 也 可 能 造成 数据 异常 ， 因 此 通过 奇异 值 指标 标记 的 异常 被 试 不 一 定 是 不 认真 造成 
的 。 此外， 这些 奇 异 值 指标 也 有 各 自 的 优势 和 缺陷 , 例如 马 氏 距离 虽然 可 以 在 大 多 数 统计 软 
件 上 直接 计算 ， 但 其 要 求 数据 服从 多 元 正 态 分 布 ， 而 问卷 中 的 数据 常常 难以 满足 这 一 前 提 
(Niessen et al., 2016); 又 如 ， 个 人 拟 合 指数 在 题 量 较 少时 虽 有 较 高 敏感 度 ， 但 其 计算 基于 优 


过 
| 定 个 体 是 否认 真 作答 时 ， 可 能 会 把 一 部 分 认真 作答 的 极端 个 体 排除 。 最 后 ， 作 假 等 


势 模型 的 理论 假设 , 可 能 不 符合 态度 调查 的 认 知 过 程 ; 再 如 , 神经 网 络 算法 的 结果 难以 解释 ， 


昌 较 难保 证 跨 情境 的 稳定 性 。 


T 1.7 ”反应 时 识别 


O 一 般 认为 , 当 作 答 时 间 非常 短 、 被 试 在 回答 问题 之 前 完成 基本 阅读 都 是 不 可 能 的 情况 下 ， 


其 给 出 的 回答 难以 代表 其 真实 想法 (Huang etal., 2012)。 反 应 时 疮 值 的 设 定 有 四 种 方法 : 依据 


经 验 设 定 、 观 察 反应 时 分 布 图 像 、 结 合 其 他 数据 质量 指标 设 定 以 及 进行 实验 预 试 。 
依据 经 验 设 定 的 反应 时 阅 值 可 以 分 为 绝对 标准 和 相对 标准 , 其 中 绝对 标准 中 运用 最 为 广 


ZANE AE Huang 等 人 (2012)* 有 根据 地 猜测 ”的 题 均 2 秒 (Curran, 2016; Soland et al., 2019). 


也 有 研究 设 定 相 对 标准 ，H6hne 和 Schlosser(2018) 总 结 了 过 往 研究 中 五 个 相对 标准 〈 如 表 1 


© 所 示 ): 
— 表 1 离 群 反 应 时 上 下 阔 值 (Hhne & Schlosser, 2018) 


BEL FER (5d Et EPR 
Mayerl (2013) Mean-(2*SD) Mean+(2*SD) 
Schnell (1994) Q.50-(1.5*IQR) Q.so+(1.5*IQR) 
Hoaglin et al. (2000) Q.50-(1.5*(Q.50-Q.25)) Q.50+(1.5*(Q.75-Q.50)) 
Hoaglin et al. (2000) Q.50-(3*(Q.50-Q.25)) Q.50+(3*(Q.75-Q.50)) 


Lenzner et al. (2010) Qoi Qo 
第 二 种 常见 的 方法 是 通过 观测 反应 时 分 布 图 像 来 确定 阔 值 。 例 如 , 假设 认真 答题 的 被 试 
需要 至 少 5 秒 钟 的 时 间 来 阅读 、 理 解 和 回答 题目 ， 那 么 正常 作答 的 情况 下 ， 时 间 分 布 应 该 大 
于 5 秒 ; 但 是 不 认真 作答 的 被 试 可 能 不 需要 5 秒 就 能 完成 回答 。 在 这 种 情况 下 ， 整 个 群体 的 


Fc 


反应 时 应 该 旦 双 峰 分 布 ( 如 图 3)。 最 初 几 秒 内 出 现 的 是 不 认真 作答 的 “尖峰 ”之 后 是 正常 


作答 行为 的 反应 时 (Wise, 2017; Wise & Demars, 2006; Wise & Kong, 2005). 


0 5 10 15 20 25 30 35 
= 时 间 / 秒 
人 一 一 不 认真 作答 ”--- 正常 作答 


图 3 快速 猜测 不 认真 作答 和 正常 作答 的 反应 时 理论 分 布 
第 三 种 方法 是 利用 其 他 识别 指标 (如 前 述 长 线 系数 等 ) 与 反应 时 进行 关联 以 帮助 确定 阔 
值 ， 或 者 验证 已 有 阔 值 合理 性 。Soland 等 人 (2019) 在 世界 经 济 合作 与 发 展 组 织 (Organization 


for Economic Co-operation and Development, OECD) 的 学 校 测试 数据 中 利用 该 种 策略 ， 首 先 按 
照 一 定 经 验 准则 将 题 均 反应 时 分 成 若干 区 间 ， 并 分 别 计算 每 个 区 间 内 被 试 的 长 线 系数 、 反 向 
题目 对 相关 、EFA 第 二 特征 根 的 大 小 、 自 我 效能 问卷 得 分 与 相应 学 科 成 就 测验 得 分 的 相关 等 
若干 指标 。 结 果 发 现 当 题 均 反应 时 小 于 2 秒 时 ， 以 上 指标 的 表现 都 较 差 。 


最 后 一 种 方法 为 事先 进行 实验 预 试 ，Huang 等 人 (2012) 在 研究 中 首先 通过 实验 室 的 指导 
语 将 被 试 控制 为 认真 作答 组 与 不 认真 作答 组 , 并 获得 两 组 被 试 包括 反应 时 在 内 的 各 项 指标 数 
据 ; 接着 他 们 再 固定 特异 性 (specificity) 为 95% 和 99%， 得 到 各 指标 的 阔 值 与 对 应 的 敏感 度 
(sensitivity); 最 后 将 从 实验 中 获得 的 各 指标 阔 值 运用 于 问卷 调查 的 筛 查 中 。 
反应 时 由 于 不 受 被 试 作答 模式 影响 , 还 可 以 细 化 到 题目 水 平 进行 评估 , 所 以 较 多 研究 都 


发 现 反应 时 是 有 效 的 不 认真 作答 识别 指标 (Huang et al., 2012; Wise & Kong, 2005)。 但 反应 时 
也 存在 一 定 缺 陷 : 第 一 ， 反 应 时 数据 获取 困难 ， 只 有 电子 问卷 才 可 能 记录 。 第 二 ， 和 其 他 识 
别 指标 一 样 , 反应 时 能 否 有 效 区 分 正常 作答 被 试 和 不 认真 作答 被 试 , 取决 于 不 认真 作答 被 试 
在 该 指标 上 和 正常 作答 被 试 的 重 琶 程 度 ， 当 不 认真 作答 的 分 布 偏离 正常 分 布 不 大 时 ， 识 别 效 
果 将 会 降低 (Curran, 2016); 而 这 一 点 在 问卷 调查 中 格外 明显 ， 因 为 不 同 于 认 知 测验 ， 问 卷 题 
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目 即使 认真 阅读 与 思考 也 无 需 花 费 太 长 时 间 , 这 使 得 通过 反应 时 进行 数据 清理 可 能 存在 较 多 
“误杀 ”所 以 也 有 研究 认为 认 知 测验 中 快速 猜测 行为 与 正常 答题 行为 的 反应 时 理论 分 布 ( 双 
峰 分 布 ) 难以 在 调查 问卷 中 推广 使 用 (Soland etal., 2019)。 第 三 ， 反应 时 的 增加 并 不 一 定 意味 
着 数据 质量 的 增加 (Yan & Tourangeau, 2008)，Meade 和 Craig(2012) 认 为 反应 时 和 数据 质量 之 
间 存 在 非 线 性 关系 ,作答 非常 快 的 被 试 是 不 认真 的 , 但 作答 非常 慢 的 被 试 , 一 旦 超过 既定 的 
阔 值 ， 也 可 能 被 认为 是 不 认真 的 。 比 如 在 网 络 调查 中 ,反应 时 过 长 可 能 是 因为 被 试 在 和 他 人 


聊天 、 看 电视 或 听 音 乐 (Barge & Gehlbach, 2012; Börger, 2016)。 


讨论 与 展望 


不 认真 作答 是 调查 问卷 中 常见 的 噪音 源 ,本文 首先 梳理 了 不 认真 作答 的 相关 概念 ,接着 
综述 了 不 认真 作答 的 各 种 事前 控制 与 事后 识别 方法 。 下 面 探讨 问卷 不 认真 作答 领域 中 , 有 
研究 者 探索 和 解决 的 问题 。 


at 


18 ”基于 不 认真 作答 的 产生 机 制 ， 优 化 与 开发 控制 方法 


已 有 研究 发 现 ， 调 整 问卷 表述 或 长 度 、 奖 励 、 警 告 、 弹 窗 提醒 、“ 虚 拟人 ” 承诺 及 前 置 
指示 题 均 在 一 定 程度 上 有 助 于 减少 不 认真 作答 的 发 生 , 但 这 些 方法 也 可 能 产生 副作用 甚至 反 
作用 , 如 外 部 激励 可 能 导致 被 试 态度 更 为 散漫 , 弹 窗 提醒 可 能 成 为 环境 干扰 分 散 被 试 注意 力 ， 


,二 而 “虚拟 人 ”容易 破坏 被 试 作答 体验 等 。 
© 为 了 避免 或 减轻 控制 方法 的 副作用 、 反 作用 ， 开 发 更 加 有 效 的 控制 方法 ， 必 须 回答 “ 控 


制 方法 为 何 有 效 ” 的 问题 。 为 此 ， 未 来 研究 可 以 采取 一 定 技术 手段 (如 眼 动 、 脑 电 等 ) 对 被 
试问 卷 作答 过 程 进 行 深入 细致 的 监控 与 探索 , 丰富 、 完 善 不 认真 作答 产生 机 制 及 影响 因素 的 
相关 理论 ， 并 结合 这 些 理论 解释 产生 副作用 、 反 作用 的 原因 ,在 此 基础 上 对 控制 方法 进行 优 
化 与 开发 。 

另外 ,未 来 研究 可 以 对 已 有 方法 进行 系统 梳理 ， 分 析 现 有 控制 方法 的 具体 作用 。 已 有 研 
究 常 通过 实验 组 和 对 照 组 在 若干 不 认真 作答 反应 识别 指标 上 的 差异 , 对 控制 方法 是 否 有 效 做 
出 回应 , 但 是 许多 控制 方法 仅 对 某 些 识别 指标 有 作用 。 因 此 未 来 研究 可 以 通过 实验 设计 对 各 
方法 的 实际 效果 进行 检验 与 比较 , 并 结合 不 认真 作答 的 产生 机 制 解释 这 些 方 法 降低 了 何 种 类 
型 的 不 认真 作答 ， 为 研究 者 和 实践 者 在 选用 时 提供 参考 。 
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1.9 ”探究 不 认真 作答 识别 指标 的 跨 情境 适用 性 ， 开 发 新 方法 


已 有 识别 指标 多 基于 人 格 量 表 或 认 知 测验 开发 , 这 两 类 问卷 具有 题目 较 多 、 得 分 呈正 态 
分 布 等 特点 ， 因 此 许多 指标 在 这 些 问 卷 情境 中 有 更 好 的 适用 性 。 例 如 ， 问 卷 越 长 ， 就 有 越 多 
的 题目 能 用 来 计算 奇偶 一 致 系数 、 正 / 反 向 题目 对 相关 ， 得 到 的 系数 也 更 加 稳定 ;在 得 分 呈 
正 态 分 布 时 ， 马 氏 距 离 、lz 指数 等 指标 也 更 加 有 效 。 

而 态度 和 行为 调查 这 两 类 社会 科学 领域 同样 常见 的 问卷 可 能 不 满足 上 述 特 征 , 这 会 造成 

识别 指标 有 效 性 下 降 。 例如， 在 许多 态度 问卷 中 ， 正 常 被 试 倾向 于 给 出 4 分 或 5 分 (以 五 点 
计 分 的 李 殉 特 量 表 为 例 )， 总 体 得 分 呈 负 偏 态 ， 而 一 些 不 认真 作答 的 被 试 则 可 能 在 所 有 题目 
上 均 给 5 分 。 在 这 种 情况 下 ， 由 于 个 体 作答 内 部 差异 减 小 , 许多 个 体 一 致 性 分 析 指 标的 效果 
下 降 ， 同 时 由 于 与 正常 被 试 的 差异 较 小 ， 奇 异 值 分 析 指 标 有 效 性 也 可 能 下 降 。 
N 因此 ， 未 来 研究 需要 重点 关注 不 同 指标 的 跨 情 境 适 用 性 。 对 态度 和 行为 调查 而 言 ， 一 方 
= 面 ， 结 合 现 有 各 指标 的 特点 ， 组 合 使 用 多 个 指标 ， 以 应 对 单一 指标 识别 效果 不 佳 的 问题 。 但 
当 指 标 联合 使 用 时 , 要 对 这 些 指标 各 自 能 识别 什么 样 的 不 认真 作答 模式 有 更 清楚 的 认识 , 进 
而 针对 各 类 型 的 不 认真 作答 模式 ,有 选择 地 使 用 若干 相应 指标 。 另 一 方面 ,可 以 开发 新 指标 ， 
以 应 对 已 有 指标 不 适用 的 问题 ， 尤 其 可 以 关注 个 人 拟 合 指数 、 机 器 学 习 的 应 用 ， 相 较 于 人 总 
相关 系数 等 传统 方法 ， 这 些 方法 在 奇异 值 识 别 上 更 加 精准 。 

另外 需要 注意 , 现 有 研究 多 采用 模拟 研究 的 方式 判断 识别 指标 的 有 效 性 , 但 现 有 模拟 数 
据 的 参数 特征 可 能 不 适用 于 态度 和 行为 调查 问卷 中 , 因此 未 来 研究 可 多 利用 态度 和 行为 调查 
gT 的 真实 数据 ， 以 提高 研究 的 生态 效 度 与 研究 结果 的 推广 性 。 


A 


1.10 局 部 不 认真 作答 的 识别 与 处 理 


尽管 已 有 研究 常 将 被 试 做 “认真 作答 ”与 “不 认真 作答 ”的 区 分 ， 但 真实 作答 情境 中 ， 
除了 完全 不 认真 的 被 试 外 ， 也 有 一 部 分 被 试 仅 在 部 分 题目 中 作答 不 认真 。 例 如 ， 当 问卷 较 长 
时 , 被 试 更 容易 在 中 间或 后 半 部 分 因 疲 劳 或 失去 兴趣 从 而 表现 出 不 认真 作答 (Baer et al., 1997; 
Berry et al., 1992; Meade & Craig, 2012)。 当 局 部 不 认真 出 现时 ， 授 入 量 表 的 错 答 次 数 、 个 体 
一 致 性 指标 、 奇异 值 分 析 指 标 均 可 能 介 于 完全 认真 与 完全 不 认真 的 被 试 之 间 , 与 完全 认真 作 
答 的 相似 性 取决 于 其 局 部 不 认真 的 比例 ,这 种 情况 下 ,通过 已 有 指标 可 能 难以 将 其 识别 出 来 。 
目前 , 对 此 情况 仅 Dunn 等 人 (2018) 指 出 , 可 以 灵活 地 选择 部 分 连续 题目 , 计算 作答 标准 差 ， 
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探测 被 试 在 选中 题目 上 是 否认 真 作答 。 例 如 ， 当 问卷 较 长 时 ,可 以 在 较为 靠 后 的 位 置 选 择 若 
干 题目 , 判断 哪些 被 试 因 疲 劳 等 原因 出 现 局 部 不 认真 。 但是， 被 试 未 必 都 在 这 一 部 分 才 出 现 
不 认真 作答 。 特别 是 电子 问卷 兴起 后 ， 被 试 的 作答 环境 无 法 控制 ， 被 试 可 能 在 任何 作答 时 间 
内 受到 外 界 干扰 。 因此， 如 何 采用 更 灵活 的 手段 识别 被 试 不 认真 作答 的 部 分 ， 可 成 为 未 来 研 
究 的 方向 之 一 。 

此 外 , 当成 功 识别 出 被 试 不 认真 作答 的 部 分 时 ,对 这 部 分 数据 的 处 理 也 有 待 进一步 研究 。 
车 删除 该 被 试 的 全 部 数据 ， 则 是 对 有 效 数据 的 浪费 ;但 仅仅 别 除 不 认真 作答 的 数据 ， 又 会 产 
生 数 据 非 随机 缺失 的 风险 。 即使 能 够 排除 非 随机 缺失 情况 ,不 认真 作答 的 数据 也 并 非 缺 失 数 
据 ， 而 是 不 够 准确 的 数据 ， 它 同样 代表 了 被 试 的 部 分 倾向 ， 因 此 是 否 利用 插 补 处 理 、 以 及 用 
何 种 播 补 方法 都 值得 进一步 探讨 。 


| 


小 结 


被 试 不 会 在 任何 时 候 都 认真 思考 并 给 出 可 靠 的 答案 .研究 者 与 实践 者 对 这 一 现象 更 不 能 
盲目 乐观 或 选择 性 无 视 , 而 应 当 在 利用 问卷 收集 数据 时 采取 有 效 措施 尽 可 能 控制 不 认真 作答 
的 产生 ,并 在 数据 清理 阶段 通过 一 定 技术 手段 识别 并 剔除 这 类 噪音 数据 , 使 得 数据 尽 可 能 
实 、 准 确 ， 以 便 后 续 得 到 可 靠 的 分 析 结果 。 


车 文博 . (2001). DH AWAKAAET 杭州 : 浙江 科学 技术 出 版 社 . 

URE, BRIE. (1991). WAAR 济南 : 山东 人 人 民 出 版 社 . 

件 智 佳 . 2017) MOOCs 学 习 参 与 度 影响 因素 的 结构 关系 与 效应 研究 我 决定 理论 的 视角 . AKAU 
F 38(10), 37—43. 

EME, 朱德 全 . (2009). PFARA ROSEREI. L AE (08), 28-31. 

PALE, 张 亮 花 . (2019). RN RE. PAREN. OPF, 2707), 1194—1204. 

Wk, FER, WOCT, BCH. (2012). FEAE W Te AY ii ab ALA A E FIR AARP 
/)(03), 7-8. 

郑 云 翔 ， 杨 浩 ， 冯 诗 晓 . (2018)， 高 校 教师 信息 化 教学 适应 性 绩效 评价 研究 ， 因 请 十 龙 教育 02), 21-28. 

Anduiza, E., & Galais, C. (2017). Answering without reading: IMCs and strong satisficing in online surveys. 
International Journal of Public Opinion Research, 29(3), 497—519. 

Baer, R. A., Ballenger, J., Berry, D. T., & Wetter, M. W. (1997). Detection of random responding on the MMPI-A. 
Journal of Personality Assessment, 68(1), 139-151. 


x 


Barge, S., & Gehlbach, H. (2012). Using the theory of satisficing to evaluate the quality of survey data. Research in 
16 


Higher Education, 53(2), 182 一 200. 

Beach, D. A. (1989). Identifying the random responder. The Journal of Psychology, 123(1), 101—103. 

Berry, D. T., Wetter, M. W., Baer, R. A., Larsen, L., Clark, C., & Monroe, K. (1992). MMPI-2 random responding 
indices: Validation using a self-report methodology. Psychological Assessment, 4(3), 340. 

Borger, T. (2016). Are fast responses more random? Testing the effect of response time on scale in an online choice 
experiment. Environmental and Resource Economics, 65(2), 389—413. 

Bowling, N. A., Huang, J. L., Bragg, C. B., Khazon, S., Liu, M., & Blackmore, C. E. (2016). Who cares and who is 
careless? Insufficient effort responding as a reflection of respondent personality. Journal of Personality and 
Social psychology, 111(2), 218. 

Burns, G. N., Christiansen, N. D., Morris, M. B., Periard, D. A., & Coaster, J. A. (2014). Effects of applicant 
personality on resume evaluations. Journal of Business and Psychology, 29(4), 573—591. 

Carrier, L. M., Cheever, N. A., Rosen, L. D., Benitez, S., & Chang, J. (2009). Multitasking across generations: 
Multitasking choices and difficulty ratings in three generations of Americans. Computers in Human Behavior, 
25(2), 483—489. 

Cialdini, R. B. (2001). Harnessing the science of persuasion. Harvard Business Review, 79(9), 72—81. 

Cibelli, K. L. (2017). The effects of respondent commitment and feedback on response quality in online surveys. 
(Unpublished doctorial dissertation), University of Michigan, Ann Arbor. 

Costa Jr, P. T., & McCrae, R. R. (2008). The Revised NEO Personality Inventory (NEO-PI-R). In G. J. Boyle, G. 
Matthews, & D. H. Saklofske (Eds.), The SAGE Handbook of Personality Theory and Assessment: Personality 
Measurement and Testing (pp. 179—198). London: SAGE Publications Ltd. 

Credé, M. (2010). Random responding as a threat to the validity of effect size estimates in correlational research. 
Educational and Psychological Measurement, 70(4), 596—612. 

Curran, P. G. (2016). Methods for the detection of carelessly invalid responses in survey data. Journal of 
Experimental Social Psychology, 66, 4-19. 

DeSimone, J. A., DeSimone, A. J., Harms, P. D., & Wood, D. (2018). The differential impacts of two forms of 
insufficient effort responding. Applied Psychology, 67(2), 309—338. 

Desimone, J. A., Harms, P. D., & Desimone, A. J. (2015). Best practice recommendations for data screening. Journal 
of Organizational Behavior, 36(2), 171—181. 

Drasgow F., Levine M. V. & Williams E. A. (1985) Appropriateness measurement with polychotomous item response 
models and standardized indices. British Journal of Mathematical and Statistical Psychology 38, 67—86. 
Dunn, A. M., Heggestad, E. D., Shanock, L. R., & Theilgard, N. (2018). Intra-individual response variability as an 
indicator of insufficient effort responding: comparison to other indicators and relationships with individual 

differences. Journal of Business and Psychology, 33(1), 105—121. 

Emons, W. H. M. (2008). Nonparametric person-fit analysis of polytomous item scores. Applied Psychological 
Measurement, 32(3), 224—247. 

Evans, J. R., & Mathur, A. (2005). The value of online surveys. Internet Research, 15(2), 195—219. 

Fang, J., Prybutok, V., & Wen, C. (2016). Shirking behavior and socially desirable responding in online surveys: A 
cross-cultural study comparing Chinese and American samples. Computers in Human Behavior, 54, 310—317. 

Fang, J., Wen, C., & Prybutok, V. (2014). An assessment of equivalence between paper and social media surveys: 
The role of social desirability and satisficing. Computers in Human Behavior, 30, 335—343. 

Francavilla, N. M., Meade, A. W., & Young, A. L. (2019). Social interaction and internet-based surveys: Examining 
the effects of virtual and in-person proctors on careless response. Applied Psychology, 68(2), 223—249. 

Garcia, A. A. (2011). Cognitive interviews to test and refine questionnaires. Public Health Nursing, 28(5), 444—450. 

Gough, H. G., & Bradley, P. (1996). The California psychological inventory™ manual: Third edition. Palo Alto, CA: 

17 


Consulting Psychologists Press. 

Grau, I., Ebbeler, C., & Banse, R. (2019). Cultural differences in careless responding. Journal of Cross-Cultural 
Psychology, 50(3), 336—357. 

Guttman, L. (1944). A basis for scaling qualitative data. American sociological review, 9(2), 139—150. 

Guttman, L. (1950). The basis for scalogram analysis. In S. A. Stouffer, L. Guttman, E. A. Suchman, P. F. Lazarsfeld, 
S. A. Star, & J. A. Clausen (Eds.), Measurement and prediction (pp. 60-90). Princeton, NJ: Princeton University 
Press. 

He, J., & Van De Vijver, F. J. R. (2013). A general response style factor: Evidence from a multi-ethnic study in the 
Netherlands. Personality and Individual Differences, 55(7), 794—800. 

He, J., & Van De Vijver, F. J. R. (2015a). Effects of a general response style on cross-cultural comparisons: Evidence 
from the teaching and learning international survey. Public Opinion Quarterly, 79(S1), 267—290. 

He, J., & Van De Vijver, F. J. R. (2015b). Self-presentation styles in self-reports: Linking the general factors of 
response styles, personality traits, and values in a longitudinal study. Personality and Individual Differences, 
81, 129-134. 

He, J., & Van de Vijver, F. J. R. (2016). Response styles in factual items: Personal, contextual and cultural correlates. 
International Journal of Psychology, 51(6), 445—452. 

Hoaglin, D. C., Mosteller, F., & Tukey, J. W. (2000). Understanding robust and exploratory data analysis. New York, 
NY: John Wiley. 

Höhne, J. K., & Schlosser, S. (2018). Investigating the adequacy of response time outlier definitions in computer- 
based web surveys using paradata SurveyFocus. Social Science Computer Review, 36(3), 369—378. 

Holtzman, N. S., & Donnellan, M. B. (2017). A simulator of the degree to which random responding leads to biases 
in the correlations between two individual differences. Personality and Individual Differences, 114, 187—192. 

Huang, J. L., Curran, P. G., Keeney, J., Poposki, E. M., & DeShon, R. P. (2012). Detecting and deterring insufficient 
effort responding to surveys. Journal of Business and Psychology, 27(1), 99—114. 

Huang, J. L., Liu, M., & Bowling, N. A. (2015). Insufficient effort responding: examining an insidious confound in 
survey data. Journal of Applied Psychology, 100(3), 828—845. 

Jackson, D. N. (1976). The appraisal of personal reliability. Paper presented at the meetings of the Society of 
Multivariate Experimental Psychology, University Park, PA. 

Jackson, D. N. (1977). Jackson vocational interest survey: manual. Port Huron, MI: Research Psychologists Press. 

Johnson, J. A. (2005). Ascertaining the validity of individual protocols from web-based personality inventories. 
Journal of Research in Personality, 39(1), 103—129. 

Kam, C. C. S., & Meyer, J. P. (2015). How careless responding and acquiescence response bias can influence 
construct dimensionality. Organizational Research Methods, 18(3), 512—541. 

Karabatsos, G. (2003). Comparing the aberrant response detection performance of thirty-six person-fit statistics. 
Applied Measurement in Education, 16(4), 277-298. 

Kountur, R. (2016). Detecting careless responses to self-reported questionnaires. Eurasian Journal of Educational 
Research, (64), 307—318. 

Krosnick, J. A. (1991). Response strategies for coping with the cognitive demands of attitude measures in surveys. 

Applied Cognitive Psychology, 5(3), 213—236. 

Lenzner, T., Kaczmirek, L., & Lenzner, A. (2010). Cognitive burden of survey questions and response times: A 
psycholinguistic experiment. Applied Cognitive Psychology, 24(7), 1003—1020. 

Levine M. V. & Rubin D. B. (1979) Measuring the appropriateness of multiple-choice test scores. Journal of 
educational statistics 4, 269—290. 

Lloyd, K., & Devine, P. (2010). Using the internet to give children a voice: An online survey of 10- and 11-year-old 

18 


children in Northern Ireland. Field Methods, 22(3), 270—289. 

Mahalanobis, P. C. (1936). On the generalized distance in statistics. Proceedings of the National Institute of Sciences 
of India, 2, 49—55. 

Maniaci, M. R., & Rogge, R. D. (2014). Caring about carelessness: Participant inattention and its effects on research. 
Journal of Research in Personality, 48, 61—83. 

Marjanovic, Z., Holden, R., Struthers, W., Cribbie, R., & Greenglass, E. (2015). The inter-item standard deviation 
(ISD): An index that discriminates between conscientious and random responders. Personality and Individual 
Differences, 84, 79—83. 

Mayerl, J. (2013). Response latency measurement in surveys: Detecting strong attitudes and response effects. Survey 

Methods: Insights from the Field. Retrieved from https://surveyinsights.org/?p=1063 

McGrath, R. E., Mitchell, M., Kim, B. H., & Hough, L. (2010). Evidence for response bias as a source of error 

variance in applied assessment. Psychological Bulletin, 136(3), 450—470. 

Meade, A. W., & Craig, S. B. (2012). Identifying careless responses in survey data. Psychological methods, 17(3), 

437. 

Meijer, R. R., & Sijtsma, K. (2001). Methodology review: Evaluating person fit. Applied Psychological 

Measurement, 25(2), 107—135. 

Melipillan, E. R. (2019). Careless survey respondents: Approaches to identify and reduce their negative impact on 

survey estimates. (Unpublished doctorial dissertation), University of Michigan, Ann Arbor. 

Nguyen, H. L. T. (2017). Tired of survey fatigue? Insufficient effort responding due to survey fatigue (Unpublished 


master’s thesis), Middle Tennessee State University, Murfreesboro. 


Niessen, A. S. M., Meijer, R. R., & Tendeiro, J. N. (2016). Detecting careless respondents in web-based 
questionnaires: Which method to use? Journal of Research in Personality, 63, 1 一 11. 

Oppenheimer, D. M., Meyvis, T., & Davidenko, N. (2009). Instructional manipulation checks: Detecting satisficing 
to increase statistical power. Journal of Experimental Social Psychology, 45(4), 867—872. 

Revilla, M., & Ochoa, C. (2015). What are the links in a web survey among response time, quality, and auto- 
evaluation of the efforts done? Social Science Computer Review, 33(1), 97-114. 

Rousseau, B., & Ennis, J. M. (2013). Importance of correct instructions in the tetrad test. Journal of Sensory Studies, 
28(4), 264-269. 

Schneider, S., May, M., & Stone, A. A. (2018). Careless responding in internet-based quality of life assessments. 
Quality of Life Research, 27(4), 1077—1088. 

Schnell, R. (1994). Graphisch gestiitzte datenanalyse [Graphically supported data analysis]. München, Germany: 
Oldenbourg. 

Soland, J., Wise, S. L., & Gao, L. (2019). Identifying disengaged survey responses: New evidence using response 
time metadata. Applied Measurement in Education, 32(2), 151—165. 

Van der Flier, H. (1980). Vergelijkbaarheid van individuele testprestaties [Comparability of individual test 
performance]. Lisse, Netherlands: Swets & Zeitlinger. 

Velleman, P. F., & Welsch, R. E. (1981). Efficient computing of regression diagnostics. The American Statistician, 
35(4), 234-242. 

Wang, C., & Xu, G. (2015). A mixture hierarchical model for response times and response accuracy. British Journal 
of Mathematical and Statistical Psychology, 68(3), 456—477. 

Ward, M. K., & Meade, A. W. (2018). Applying social psychology to prevent careless responding during online 
surveys. Applied Psychology, 67(2), 231—263. 

Ward, M. K., & Pond, S. B. (2015). Using virtual presence and survey instructions to minimize careless responding 

on Internet-based surveys. Computers in Human Behavior, 48, 554—568. 

19 


Wise, S. L. (2017). Rapid-guessing behavior: Its identification, interpretation, and implications. Educational 
Measurement: Issues and Practice, 36(4), 52—61. 

Wise, S. L., & Demars, C. E. (2006). An application of item response time: The effort-moderated IRT model. Journal 
of Educational Measurement, 43(1), 19—38. 

Wise, S. L., & Kong, X. (2005). Response time effort: A new measure of examinee motivation in computer-based 
tests. Applied Measurement in Education, 18(2), 163—183. 

Woods, C. M. (2006). Careless responding to reverse-worded items: Implications for confirmatory factor analysis. 
Journal of Psychopathology and Behavioral Assessment, 28(3), 186—191. 

Yan, T., & Tourangeau, R. (2008). Fast times and easy questions: the effects of age, experience and question 
complexity on web survey response times. Applied Cognitive Psychology, 22(1), 51—68. 

Zhang, C. (2013). Satisficing in web surveys: Implications for data quality and strategies for reduction. 
(Unpublished doctorial dissertation). University of Michigan, Ann Arbor. 

Zhang, C., & Conrad, F. G. (2018). Intervening to reduce satisficing behaviors in web surveys. Social Science 
Computer Review, 36(1), 57—81. 

Zijlstra, W. P., van der Ark, L. A., & Sijtsma, K. (2011). Outliers in questionnaire data: Can they be detected and 
should they be removed? Journal of Educational and Behavioral Statistics, 36(2), 186—212. 


Preventing and detecting insufficient effort survey responding 
ZHONG Xiaoyu; LI Mingyao; LI Lingyan 
(Collaboration Innovation Center of Assessment toward Basic Education Quality, Beijing Normal University, Beijing 100875, China) 

Abstract: Surveys are commonly used in psychological and educational research. Insufficient effort 
response (IER), as one source of invalid response data, is somewhat prevalent due to the low-stakes 
nature of the majority of surveys, which often leads to statistically significantly biased estimates 
and invalid inferences. The current literature shows: (a) IER is commonly believed to be caused by 
some inner causes, (e.g., low motivation), showing as specific patterns, (e.g., random responding); 
(b) The most common methods to prevent IER include reducing task difficulty and increasing 
respondents’ motivation; (c) Current detection methods fall into three main categories, which are 
proactive approaches/ direct screening methods, response patterns analysis, and response time 
analysis. Recommendations for future research directions and practitioners are (a) deepening the 
investigation on IER mechanism and improving the preventing methods, (b) examining the 
effectiveness of IER identification methods’ applicability of cross-situation and developing new 
approaches, and (c) delving into the identification and treatment of partial IER. 

Keyword: insufficient effort responding (IER); data screening; invalid response; survey and 
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